Introduzione alla modellazione generativa: andare oltre la discriminazione
Stiamo passando da modellazione discriminativa, che risolveva problemi di classificazione e regressione apprendendo la probabilità condizionata $P(y|x)$, al complesso dominio della modellazione generativa. Il nostro obiettivo principale ora si sposta verso stima della densità: stimare la distribuzione completa dei dati sottostante $P(x)$ stessa. Questo cambiamento fondamentale ci permette di catturare le dipendenze intricate e la struttura complessa all'interno di insiemi di dati ad alta dimensione, andando oltre la semplice separazione di confini per raggiungere una vera comprensione e sintesi dei dati.
1. L'obiettivo generativo: Modellare $P(x)$
Lo scopo di un modello generativo è stimare la distribuzione di probabilità $P(x)$ da cui proviene il dato di addestramento $X$. Un modello generativo di successo può svolgere tre compiti essenziali: (1) Stima della densità (assegnare un punteggio di probabilità a un input $x$), (2) Campionamento (generare punti dati completamente nuovi $x_{new} \sim P(x)$), e (3) Apprendimento non supervisionato delle caratteristiche (scoprire rappresentazioni significative e distaccate nello spazio latente).
2. Tassonomia: Probabilità esplicita vs. implicita
I modelli generativi sono fondamentalmente categorizzati in base al loro approccio alla funzione di verosimiglianza.Modelli di densità esplicita, come Autoencoder variazionali (VAE) e Modelli di flusso, definiscono una funzione matematica di verosimiglianza e cercano di massimizzarla (o il suo limite inferiore).Modelli di densità implicita, in modo particolare Reti Generative Avversarie (GAN), saltano del tutto il calcolo della verosimiglianza, apprendendo invece una funzione di mappatura per campionare dalla distribuzione $P(x)$ utilizzando un framework di addestramento avversario.
Obiettivo: Determinare se $x_{new}$ è un'anomalia (frode).
Il modello deve valutare la probabilità (o la verosimiglianza) $P(x_{new})$. Se $P(x_{new})$ è inferiore a un valore soglia predefinito $\tau$, ciò significa che il nuovo punto è statisticamente improbabile sotto la distribuzione appresa delle transazioni normali, e quindi viene contrassegnato come anomalo.